** Este documento no contiene los resultados correctos, sino un ejmeplo de como tratar los datos

Data Lending club

Lending Club es una de las empresas P2P más grandes, publica regularmente conjuntos de datos anonimizados de sus clientes que contienen características de los préstamos y los prestatarios. Esta información se puede utilizar para clasificar si un prestatario incumplirá o no con su préstamo.

Por ejemplo, los bancos suelen tener datos informativos para crear modelos que ayuden a decidir a quién conceder o denegar un préstamo. Es un problema de clasificación supervisado.

Definición del problema:

Se desea predecir, antes de conceder un préstamo a una persona, la probabilidad de que no se devuelva completamente. Por tanto, todas las variables del dataset que se empleen para el modelo, deben poderse utilizar en el momento de su llamada. Para ello, se empleará un algoritmo de clasificación supervisado.

Los pasos a realizar son:

1. Análisis inicial de los datos y preprocesamiento inicial
2. Correlaciones, tratamiento de missing y outliers
4. Tratamiento de variables categoricas: encoding
5. Aplicación de algoritmos
6. Evaluación con la muestra de test

Importo librerias

Funciones

Leo las tablas y las uno

El conjunto de datos contiene variables que no estan disponibles para Lending Club en el momento en que un prestatario presenta una solicitud de préstamo en su plataforma. Estas deben eliminarse para realizar modelos ya que se estaría introduciendo información que el modelo en el momento en que lo queremos aplicar no tendría.

Analisis generales de la tabla

Dimensión

Tipos de datos

Exploración de la variable objetivo y tratamiento

elimino todos los prestamos que no están finalizados

Selección de threshold por filas y columnas para eliminar valores missing

Tipos: Variables categoricas y numericas

Preprocesamiento inicial de algunas variables